Stata: Logit 模型简介

Original stata连享会 Stata连享会 2020-02-10

作者：杨柳 (西北大学) || 连玉君 (中山大学)
Stata 连享会：知乎 | 简书 | 码云
Stata连享会精彩推文1 || 精彩推文2

1. 引言

在实证研究中，我们会经常遇到被解释变量为 “是/否” 或者 “某事件发生/未发生”，此时，被解释变量只有两种取值，对应的数字编码可记为 0 或 1，称为二值变量或 0-1 变量。例如，我们想研究以下问题：

什么因素会导致患胃癌（患胃癌 = 1；未患胃癌 = 0）？
具有哪些特征的中小企业会破产违约还贷（违约 = 1；未违约 = 0）？
哪些消费者倾向于购买 iphone（购买 iphone = 1；未购买 iphone = 0）？
北京实施限行政策后哪些家庭会购买第二辆小汽车（购买第二辆车 = 1；未购买第二辆车= 0）？

在这些情况下，采用线性回归模型研究被解释变量的影响因素是 不合适的 （可参见 Stata 连享会 推文二元选择模型：probit 还是 logit？），需要使用 概率模型，其中最常用的是 二元 Logit 模型。接下来，小编就带大家一起来学习 二元 Logit 模型。

2. 二元 Logit 模型

2.1 (0-1) 分布

对于某一个样本i ，由于被解释变量的取值为 0 或者 1，我们可以将视为随机变量的实现值：取 1 的概率为，取 0 的概率为 1-。随机变量服从参数为的 (0-1) 分布，的分布律为

显然，若 =1，则的概率为；若 =0，则的概率为 1-。

易于证明，的期望和方差分别为：可见， 的期望和方差都决定于 。任何影响概率的因素不但会影响观察值的均值，也会影响其方差。这就表明线性回归模型无法用于分析二值变量，因为线性回归模型 假设方差是固定不变的。

2.2 Logit 变换

线性变换

为了使上述模型更富有弹性，我们假设概率受一系列变量的影响，设定为。一个非常直觉的想法是把二者之间的关系设定为线性函数：。其中，为系数向量。该模型通常称为线性概率模型，采用普通最小二乘法估计即可。其 主要缺陷 在于：由于等式左边的表示概率，所以必须介于 0 和 1 之间，而右边的线性组合项则可能取任何值，所以在不对模型做严格约束的情况下，我们很难保证模型的预测值介于合理的范围内。

Logit 变换

因此，我们必须对概率进行变换以消除对其取值范围的约束，继而把变换后的数值设定为解释变量的线性函数。处理过程包括两个步骤。

第一步，我们依据概率来定义胜算比 (odds) ：
即 =1 的概率与 =0 的概率 1- 的比值。显然，胜算比可以取任意非负值，如此便可消除上限约束。

第二步，取对数以计算 logit 或 log-odds：
这样我们就可以去除下限约束。因为，随着概率趋近于 0，logit 将趋近于负无穷；而当概率趋近于1 ，logit 将趋近于正无穷。因此，通过以上变换，
将概率的取值范围从 (0, 1) 映射至整个实数轴。显然，如果概率为 0.5，胜算比为1，相应的 log-odds 为 0。log-odds 为负表示概率小于0.5，反之则表示概率大于0.5。

2.3 Logistic 模型

在完成了上述变换后，我们就可以定义 Logistic 回归模型了，此时 我们假设概率的 logit 变换（而非概率本身）服从线性模型，即

其中，为解释变量构成的向量，为系数向量。

由于 logit 变换是一一对应的，所以我们可以通过求取逆对数由 logit 反向得到概率值 (通常称为 antilogit )。由上式可解得：

进一步将被解释变量表示为：

其中，为随机干扰项，有两个可能的取值。若 =1，则，相应的概率为；若 =0，则，相应的概率为。因此， 服从均值为 0，方差为的分布。

综合上面的介绍，可以看出当被解释变量是二值变量时：(1) 模型的条件均值必须限定于 0 和 1 之间；(2) 干扰项服从均值为 0，方差为的分布，而非正态分布，且其分布受所分析样本的具体情况的影响；(3) 分析线性模型的基本准则同样适用于分析 Logit 模型。

2.4 估计结果的解释与举例

系数的含义

在 Logistic 模型 (4) 式中，系数的含义可解释如下：在其他变量不变的情况下，第 j 个变量变动一个单位，的值将变动个单位。问题在于，变动个单位的经济含义很难解释。不过，我们可以对 (4) 式两边同时进行指数运算，得到第 i 个观察值对应的胜算比：

假设第 j 个解释变量增加 1 个单位，则胜算比变为：

结合 (7) 式和 (8) 式，可以得到奇比 (odds ratio)[^Note1]：

[^Note1]: 为了表述的方便，(9) 式中省略了下标 i。

因此，的含义 可以解释为：在其他变量不变的情况下，若增加 1 个单位，则 胜算比 (odds) 是原来的倍。若>1，则表示在其他变量不变的情况下，增加 1 个单位时， 胜算比增大了，此时对应的>0；若 <1，则表示在其他变量不变的情况下，增加 1 个单位时， 胜算比减小了，此时对应的 >0。

在某些情况下，我们还需要分析变动 1 个标准差 产生的影响： 在控制其他变量不变的情况下，若增加 1 个标准差，则 胜算比 (odds) 是原来的倍。

举例

Stata 提供的 logit 命令可用于估计上面介绍的 二元logit 模型。这里，我们使用 Stata 附带的 auto.dta 数据 (1978年美国汽车数据) 来预测汽车产地 (进口= 1；国产= 0)。以 foreign (是否进口车) 作为被解释变量、以 mpg (每加仑汽油能够行驶的英里数)、weight (汽车重量) 作为解释变量建立二元 logit 模型。Stata 中的命令和结果如下所示：

. sysuse "auto.dta", clear
(1978 Automobile Data)
. logit foreign mpg weight
Iteration 0: log likelihood = -45.03321
Iteration 1: log likelihood = -29.238536
Iteration 2: log likelihood = -27.244139
Iteration 3: log likelihood = -27.175277
Iteration 4: log likelihood = -27.175156
Iteration 5: log likelihood = -27.175156
Logistic regression Number of obs = 74
LR chi2(2) = 35.72
Prob > chi2 = 0.0000
Log likelihood = -27.175156 Pseudo R2 = 0.3966
------------------------------------------------------------------------------
foreign | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mpg | -.1685869 .0919175 -1.83 0.067 -.3487418 .011568
weight | -.0039067 .0010116 -3.86 0.000 -.0058894 -.001924
_cons | 13.70837 4.518709 3.03 0.002 4.851859 22.56487
------------------------------------------------------------------------------

回归结果显示 mpg 与 weight 的系数值显著为负，表明当控制其他变量不变时，mpg 与 weight 变量的值分别增加 1 个单位时， 胜算比 (odds) 将分别变为原来的与倍，表明该车辆是进口车的概率将变小。
要获得这个变化的倍数值，即奇比，只需在 logit 命令后附加 or 选项即可。Stata 中的命令和结果如下所示：

. logit foreign mpg weight, or
Iteration 0: log likelihood = -45.03321
Iteration 1: log likelihood = -29.238536
Iteration 2: log likelihood = -27.244139
Iteration 3: log likelihood = -27.175277
Iteration 4: log likelihood = -27.175156
Iteration 5: log likelihood = -27.175156
Logistic regression Number of obs = 74
LR chi2(2) = 35.72
Prob > chi2 = 0.0000
Log likelihood = -27.175156 Pseudo R2 = 0.3966
------------------------------------------------------------------------------
foreign | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mpg | .8448578 .0776572 -1.83 0.067 .7055753 1.011635
weight | .9961009 .0010077 -3.86 0.000 .9941279 .9980779
_cons | 898396.7 4059594 3.03 0.002 127.9781 6.31e+09
------------------------------------------------------------------------------
Note: _cons estimates baseline odds.

Stata 还提供了另一条命令： logistic，可以得到完全相同的结果，命令如下（回归结果与上面相同，故省略）：

. logistic foreign mpg weight, or

回归结果显示，mpg 与 weight 系数对应的 奇比均小于 1，表明当车辆的 mpg 与 weight 增加时，胜算比减小了，说明 该车辆是进口车的概率将减小。

2.5 边际效应分析

从上面的例子中可以看到，虽然我们能从解释变量的系数值判断该车辆是进口车的概率值的变化情况，但我们仍然不能直观地看出概率值变化的具体数值。在实证分析中，我们往往需要计算出来解释变量的变化将对这辆车是进口车的概率的变化带来的边际影响值，此时，我们需要使用 margins 命令来计算边际效应。

接下来，小编向大家介绍实证分析中常用的两种边际效应：(1) 平均边际效应。 即先分别计算在每个样本观测值上的边际效应，然后进行简单算术平均得到平均边际效应。(2) 样本均值处的边际效应。 即先分别计算各自变量的样本均值，然后计算在这一点处的边际效应。

(1) 平均边际效应

我们可以使用 margins 命令附加 dydx 选项来进行计算。Stata 中的命令和结果如下所示：

. margins, dydx(mpg) //计算mpg变量对Pr(foreign)的平均边际效应
Average marginal effects Number of obs = 74
Model VCE : OIM
Expression : Pr(foreign), predict()
dy/dx w.r.t. : mpg
------------------------------------------------------------------------------
| Delta-method
| dy/dx Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mpg | -.0197187 .0096987 -2.03 0.042 -.0387277 -.0007096
------------------------------------------------------------------------------
. margins, dydx(weight) //计算weight变量对Pr(foreign)的平均边际效应
Average marginal effects Number of obs = 74
Model VCE : OIM
Expression : Pr(foreign), predict()
dy/dx w.r.t. : weight
------------------------------------------------------------------------------
| Delta-method
| dy/dx Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
weight | -.0004569 .0000571 -8.01 0.000 -.0005688 -.0003451
------------------------------------------------------------------------------

计算结果显示：当 mpg 增加 1 个单位时，车辆为进口车的概率减少 1.97%；当 weight 增加 1 个单位时，车辆为进口车的概率减少 0.04%。

(2) 样本均值处的边际效应

我们可以使用 margins 命令附加 dydx 、atmeans 选项来进行计算。Stata 中的命令和结果如下所示：

. margins, dydx(mpg) atmeans //计算mpg变量对Pr(foreign)在样本均值处的边际效应
Conditional marginal effects Number of obs = 74
Model VCE : OIM
Expression : Pr(foreign), predict()
dy/dx w.r.t. : mpg
at : mpg = 21.2973 (mean)
weight = 3019.459 (mean)
------------------------------------------------------------------------------
| Delta-method
| dy/dx Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mpg | -.0223512 .0127037 -1.76 0.079 -.04725 .0025476
------------------------------------------------------------------------------
. margins, dydx(weight) atmeans //计算weight变量对Pr(foreign)在样本均值处的边际效应
Conditional marginal effects Number of obs = 74
Model VCE : OIM
Expression : Pr(foreign), predict()
dy/dx w.r.t. : weight
at : mpg = 21.2973 (mean)
weight = 3019.459 (mean)
------------------------------------------------------------------------------
| Delta-method
| dy/dx Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
weight | -.0005179 .0001389 -3.73 0.000 -.0007902 -.0002457
------------------------------------------------------------------------------

计算结果显示：当 mpg的均值 增加 1 个单位时，车辆为进口车的概率减少 2.23%；当 weight的均值 增加 1 个单位时，车辆为进口车的概率减少 0.05%。

3. 二元 Logit 模型在实证分析中的应用举例

在 Journal of Urban Economics, 102 (2017) 里面的一篇文献中使用了 二元 Logit模型 分析了北京汽车限号行驶政策对个体出行行为的影响。接下来，小编就向大家介绍文献中关于 建立二元 Logit 模型分析限号行驶政策对个体出行行为影响作用 的主要内容。若大家对该篇文献感兴趣可以按照如下原文信息下载 PDF，还可以参考阅读香樟经济学术圈推文【香樟推文1015】北京汽车限行对个体出行行为的影响。

原文信息： Yizhen Gu, Elizabeth Deakin, Ying Long, The Effects of Driving Restrictions on Travel Behavior Evidence from Beijing, Journal of Urban Economics, 102 (2017), 106-122. DOI: /10.1016/j.jue.2017.03.001

3.1 研究背景与问题

汽车限号行驶政策已在国际上的很多城市实施过，许多研究质疑了这类政策的有效性，还有一些研究结果之间的结论存在差异。该篇文章将北京市作为案例城市，使用 微观的个人出行数据 来研究 汽车限号行驶政策 对居民的 出行行为 的影响，这些 出行行为 包括：

遇到行驶受限时，是否进行至少一次小汽车出行;
遇到行驶受限时，是否不使用小汽车方式，使用其他步行、自行车、公交等替代方式出行;
对限号行驶政策的适应 / 调整行为（调整为非限行时间 / 日期出行；违反限行规定驾车；使用尾号不受限行的车辆）等。

3.2 北京市汽车限号行驶政策

北京自 2009 年 4 月开始实行在 工作日早上 7:00 到晚上 8:00 之间 的时间段，五环路以内和部分其它道路上 实施按 车辆尾号限行 的措施：

周一限行 1 和 6
周二限行 2 和 7
周三限行 3 和 8
周四限行 4 和 9
周五限行 0 和 5
对于每一个组限行的尾号（1 & 6, 2 & 7, 3 & 8, 4 & 9, 0 & 5）来说，限行的日子每 13 周轮换一次。

在 2010 年底，北京大约有 480 万辆注册的车，所以平均来说，每个工作日有 100 万辆车限行。但是由于 4 是不吉利的数字，注册的车辆中以 4 结尾的车辆会少一些。因此，每逢遇到尾号是 4 & 9 的限行日，交通拥堵程度会增加。

3.3 研究数据

该篇文献的研究数据来源于北京市政府组织调查的 2010 年的居民出行调查数据。调查采取 1% 的样本率，选择了北京市 1911 个交通小区的 1085 个区域，每个区域有 10 - 50 的家庭接受面对面的调查。居民出行调查的样本总量共计 46,900 家庭及 116,142 位家庭成员。居民出行调查内容包括：家庭成员一天的出行情况，家庭的信息和家庭成员的个人信息。在该样本中，有 71.1% 的家庭没有私人汽车， 26.7% 的家庭有一辆， 2.2% 的家庭至少有两辆车。

3.4 二元 Logit 模型建立与结果分析

(1) 基本模型

文献中建立的 二元 Logit 模型 如下所示：

式中，为驾驶员 i 的第 t 次出行使用小汽车方式的概率；为虚拟变量，代表调查当日驾驶员的小汽车是否被限行；为虚拟变量，代表调查日是否与驾驶员的小汽车被限行的日子相邻；为代表一系列反映出行特征的协变量，例如出行目的、出行距离/时耗等；代表一系列反映驾驶员特征的协变量，例如性别、年龄、职业、收入、家庭距离地铁站的距离、家庭是否位于市中心的东城区或西城区、家庭是否位于长安街以北的地区等。

(2) 是否在工作日至少使用小汽车方式进行一次出行

基于二元 Logit 模型公式(10) ，将因变量中的定义为 驾驶员 i 在工作日至少使用小汽车方式出行一次的概率，选择 两类驾驶员 样本进行回归分析，分别为以下两类，回归结果如下图所示：

样本 1：居住在 受限区域 且 家庭中拥有一辆小汽车 的 5123 名驾驶员
样本 2：居住在 非受限区域 且 家庭中拥有一辆小汽车 的 3874 名驾驶员

图中报告的结果是 平均边际效应值；括号内数字为 聚类标准误，以 驾驶员的家庭所在的交通小区 作为聚类的单元。从回归结果可以看到，限行政策使受限区域的驾驶员在工作日至少使用小汽车方式出行一次的概率显著降低了 8.1%-15.9%。

为了进一步说明限行政策的边际效果在不同组别的驾驶员之间的区别，文献中按照性别、机动/固定的工作时间、高/低收入、居住在长安街以北/以南地区、是否有孩子对位于 受限区域且家庭中拥有一辆小汽车 的 5123 名驾驶员样本进行了 分组回归，结果如下图所示：

图中报告的结果是各组的 平均边际效应值、至少使用小汽车方式出行一次的样本均值 与 调查当日被限行时至少使用小汽车方式出行一次的平均概率的下降情况；括号内数字为 聚类标准误，以 驾驶员的家庭所在的交通小区 作为聚类的单元。从回归结果可以看到，女性、有机动工作时间与高收入的驾驶员在 调查当日被限行时 至少使用小汽车方式出行一次的平均概率比 未限行时 的平均概率的 减小幅度 较大，分别为 27.3%、24% 与 18%。

(3) 对限行政策的适应 / 调整行为

文献基于二元 Logit 模型公式 (10) ，将因变量中的定义为 小汽车出行的概率，使用了 四组样本 进行回归分析，结果如下图所示：

从上图 Panel 1 中 I 与 II 列的回归结果可以看到，在 居住在受限区域且家庭拥有一辆车 的驾驶员进行的所有出行中，限行政策使得小汽车方式出行的平均概率显著的下降了近 10%；III 与 IV 列的回归结果显示，在 居住在非受限区域且家庭拥有一辆车的驾驶员进行的所有出行中，限行政策未能显著的影响小汽车方式出行的平均概率。

调整为非限行时间 / 日期出行的行为Panel 2 使用的分析样本包括 (i). 在 居住在受限区域且家庭拥有一辆车 的驾驶员进行的早 7:00 至晚 8:00 的出行；(ii). 非限行时段内的出行；(iii). 在 居住在受限区域且家庭拥有一辆车 的驾驶员进行的所有出行。 V 与 VI 列的回归结果显示，限行政策使得限行时段内小汽车出行的概率下降 13.6%；而在非限行时段内，限行政策未能显著的影响小汽车方式出行的平均概率。VII 与 VIII 列的回归结果显示，当 调查日与驾驶员的小汽车被限行的日子相邻时，小汽车出行的概率未受到显著的影响。
违反限行规定的驾车行为Panel 3 使用的分析样本为 居住在受限区域且家庭拥有一辆车 的驾驶员进行的所有出行。由于没有官方的违反限行规定驾车出行的数据，我们假设：当驾驶员受到限行时，若出行距离较短，则违反限行规定驾车出行的概率会大些。例如，从家到幼儿园接送孩子时，被交警或摄像头拍摄到违规的概率会小些。因此，我们在模型中加入出行时耗 (Duration) / 出行距离 (Distance) 变量和 调查当日驾驶员的小汽车被限行 (Restrict) 与 出行时耗 (Duration) / 出行距离 (Distance) 的 交乘项。
第 IX 和 X 列的回归结果显示，Restrict 对小汽车出行概率的影响变为不显著，而 Duration 变量的平均边际效应显著为 正，Restrict 与 Duration 的交乘项 的平均边际效应显著为 负。上述结果表明：当 出行距离较短 (Duration) 时，调查当日驾驶员的小汽车被限行 (Restrict) 对小汽车出行概率的边际效应值显著的变小了（仅下降了 0.1%），但在一般情况下，当驾驶员进行 长距离出行 时，选择小汽车出行的概率较大（ Duration 变量对小汽车出行概率的边际效应值为 +0.2%）。该结果对 当出行距离较短时，驾驶员违反限行规定使用小汽车出行的概率会大些 的结论提供了一些依据。
使用尾号不受限行的车辆Panel 4 使用的分析样本为 居住在受限区域且家庭拥有至少两辆车 的驾驶员进行的所有出行。XIII 与 XIV 列的回归结果显示，若 驾驶员能够使用尾号不受限行的车辆，则限行政策 不能显著的影响 小汽车方式出行的平均概率，但该样本量较小 ( N = 183)，因此得出该结论时我们需要谨慎些。

(4) 稳健性检验

文献中对 出行方式选择 的回归结果还进行了一系列的 稳健性检验，包括以下方法：

使用 OLS 回归方程 代替二元 Logit 模型；
使用 不同的类聚标准误（以驾驶员为聚类单元、以出行起点 (Origin) 所在的交通小区为聚类单元、以出行终点 (Destination) 所在的交通小区为聚类单元、以出行起点与终点的 OD 点对所在交通小区为聚类单元），得到了回归结果与上述结果相同；
实施 安慰剂检验，得到的回归结果不显著；
对样本 增加了权重，得到的回归结果变化不大。

参考文献

钟经樊，连玉君，计量分析与 STATA 应用第十五章 Logistic 模型，版本 2.0，2010.6
不止点滴 推文二值选择模型：Probit 与 Logit
Stata 连享会 推文二元选择模型：probit 还是 logit？
Yizhen Gu, Elizabeth Deakin, Ying Long, The Effects of Driving Restrictions on Travel Behavior Evidence from Beijing, Journal of Urban Economics, 102 (2017), 106-122. DOI: /10.1016/j.jue.2017.03.001
香樟经济学术圈 推文【香樟推文1015】北京汽车限行对个体出行行为的影响

关于我们

【Stata 连享会(公众号：StataChina)】由中山大学连玉君老师团队创办，旨在定期与大家分享 Stata 应用的各种经验和技巧。
公众号推文同步发布于 CSDN-Stata连享会、简书-Stata连享会和知乎-连玉君Stata专栏。可以在上述网站中搜索关键词Stata或Stata连享会后关注我们。
点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
Stata连享会精彩推文1 || 精彩推文2

联系我们

欢迎赐稿： 欢迎将您的文章或笔记投稿至Stata连享会(公众号: StataChina)，我们会保留您的署名；录用稿件达五篇以上，即可免费获得 Stata 现场培训 (初级或高级选其一) 资格。
意见和资料： 欢迎您的宝贵意见，您也可以来信索取推文中提及的程序和数据。
招募英才： 欢迎加入我们的团队，一起学习 Stata。合作编辑或撰写稿件五篇以上，即可免费获得 Stata 现场培训 (初级或高级选其一) 资格。
联系邮件： StataChina@163.com

往期精彩推文

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...